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jjj 3E: 由 申 威 众 核 处 理 器 组 成 的 “和 神威。 太湖 之 光 ” 是 当前 我 国 性 能 最 高 的 超级 计算 机 ， 可 为 大 规模 NSGA-II 求解 
提供 硬件 平台 。 基 于 硬件 架构 特点 ， 设 计 了 “分 岛 一 主 从 增强 ”混合 并 行 NSGA-II。 在 主 从 模式 基础 上 ， 利 用 从 核 间 
寄存 器 通信 ， 实 现 核 组 内 从 核 局 部 数据 存储 的 共享 。 优 化 流程 ， 实 现 更 多 算法 模块 在 从 核 上 的 并 行 。 运 用 DMA 传输、 
向 量化 、 双 缓冲 、 存 储 优化 等 方法 显著 提高 加 速 比 。 实 验 表 明 ， 优 化 的 并 行 NSGA-II 在 申 威 众 核 处 理 器 上 具有 良好 的 
加 速 比 和 扩展 性 
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Parallelization and optimization of NSGA-II based on sunway many-core processor 


Jis Liu Yao! ?, Zheng Lin'?, Zheng Kai'?, Wang Su! ?', Liao Qidan'? 
(1. School of Computer science & software Engineering, East China Normal University, Shanghai 200062, China; 2. State Key 
Laboratory of mathematical Engineering & Advanced Computing, Wuxi Jiangsu 214215, China) 


Abstract: The Sunway TaihuLight, which is composed of Sunway many-core processors, is currently the highest performance 
supercomputer in China. It can provide a hardware platform for NSGA-II to solve the large-scale problems. Considering the 


architecture of Sunway many-core processor, an “island combined with enhanced master-slave” hybrid parallel NSGA-II 


algorithm is designed. Based on the master-slave mode, register communication is used to realize the sharing of local data 
memory of CPEs in a core group. The algorithm process is optimized and more algorithm modules are parallelized on CPEs. By 
means of DMA transmission, vectorization, double buffering and storage optimization, the speedup is significantly increased. 
The experiments show that the optimized parallel NSGA-II has good speedup and scalability on the Sunway many-core 
processors. 
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人 检测 的 HOG 特征 提取 算法 进行 加 速 ， 处 理 高 分 辩 率 多 幅 

像 的 从 核 加 速 比 达到 83 倍 。 姚 文 军 等 人 外 将 纳米 级 粒度 分 子 动 

“神威 太湖 之 光 ” 是 世界 上 首 台 运算 速度 超过 10 亿 亿 次 力学 软件 NAMD 移植 到 神威 太湖 之 光 上 ， 并 行 优化 后 性 能 提 

的 超级 计算 机 由， 峰值 性 能 达到 125.4 PFlops， 由 我 国 自主 研发 。 高 了 20 倍 。 然 而 针对 遗传 算法 在 申 威 众 核 处 理 器 上 的 并 行 化 
的 申 威 众 核 处 理 器 为 核心 构建 而 成 。 近 年 来 ， 针 对 申 威 众 核 处 。 研究 依然 较 少 。 
里 器 的 研究 日 益 增多 , 基于 其 上 的 并 行 化 实例 也 在 日 渐 涌 现 广 9。 遗传 算法 是 一 种 通过 模拟 自然 进化 过 程 搜索 最 优 解 的 方法 ， 
文 杰 等 人 晤 对 共性 数学 库 PETSc 在 申 威 众 核 处 理 器 上 进行 了 根据 目标 函数 的 数量 可 分 为 单 目 标 遗 传 算法 00-59 和 多 目标 遗 
了 ， 优 化 后 最 终 的 从 核 加 速 比 达到 16.4 倍 。 盏 德 龙 等 人 外 将 传 算法 0417 两 种 类 型 。 针 对 单 目标 遗传 算法 ， 赵 瑞祥 等 人 08 提 
流体 力学 开源 软件 包 OpenFOAM 移植 到 申 威 众 核 处 理 器 上 ， 出 了 基于 申 威 众 核 处 理 器 的 单 目 标 遗 传 算 法 的 二 级 并 行 ， 按 核 
解决 了 兼容 性 问题 和 稀 玻 矩阵 的 计算 开销 较 大 的 问题 ， 单 核 组 组 进行 分 岛 ， 在 从 核 上 实现 了 适应 度 函 数 计 算 的 并 行 ， 其 从 核 
性 能 优化 后 加 速 比 达到 8.03 倍 。 赵 美 婷 等 人 口 将 广泛 应 用 与 行 。 加 速 比 在 重 载 的 情况 下 最 高 达到 31.85 倍 ， 然 而 没有 解决 在 轻 
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载 的 情况 下 加 速效 果 差 的 问题 。 多 目标 遗传 算法 方面 
多 目标 遗传 算法 有 VEGAU9、MOGALD0、NPGA-IID2 
] 非 支配 排序 的 方法 使 血 


IID2223] 等 。 其 


NSGA-I 及 | 


OLI] 
~ NSGA- 


IE BUB 


ilr Pareto 最 优 前 沿 的 能 力 ， 采用 拥挤 度 机 制 保证 Pareto 最 优 解 


Ko AKF 
但 在 从 核 
核 加 速 比 仅 
了 基本 的 
基于 


岛 一 主 从 增强 ”混合 式 


能 够 良好 的 分 布 ， 但 随 着 求解 问题 规模 不 
断 增 加 ， 对 了 
243 NSGA-II 在 | 


断 扩大 和 复杂 程度 不 


SGA-I 求解 质量 和 运行 速度 都 提出 了 更 高 的 要 
威 众 核 处 理 器 上 实现 了 并 行 化 ， 


上 只 实现 


上 述 工 作 虽 然 在 申 威 众 核 处 至 


目标 函数 计算 部 分 的 并 行 ， 导 致 轻 载 时 从 


组 间 的 分 岛 


主 从 模式 的 基础 上 
局 部 数据 存储 的 
算法 模块 在 从 核 


行 遗传 算法 ， 但 是 尚 缺 乏 并 行 亿 
威 众 核 处 理 器 的 体系 架构 特点 , 本文 设 计 了 一 种 “分 
并 行 NSGA-II 算法 , 利用 MPI 实现 了 核 


器 上 实现 
化 方法 的 研究 。 


行 ， 利 用 Athread 实现 了 核 组 内 的 3 


LT 


句 量化 、 双 组 六 
分 岛 模型 和 迁移 策略 ， 将 算法 扩展 到 “神威 。 太 湖 
良好 的 扩展 性 。 最 终 ， 解 六 


Rem. 


加 速 比 。 


1 ， 神威， 太湖 之 光 


化 等 方法 


EM 


fr. TE 


] 从 核 间 寄存 器 通信 ， 实 现 核 组 内 从 核 
< 享 。 通 过 对 算法 流程 进行 优化 ， 实 


岗 了 更 多 


上 的 并 行 , 提高 从 核 利 月 


DMA, 


HX. 综合 运 | 3 


， 显 著 提 高 了 


规模 集群 上 ， 训 
加 速效 果 较 差 的 问题 ， 保 订 


行 效率 。 利 


之 光 ” 大 


了 轻 载 情况 
E 了 算法 在 多 种 负载 情况 下 的 较 高 


“神威 。 太 湖 之 光 ” 计 算 机 系统 采用 基于 高 密度 弹性 超 节 


点 和 高 流量 复合 网 络 架构 和 面向 多 目标 优化 的 高 效能 
系统 由 40 960 块 “ 申 威 26010” 异 构 众 核 处 性 
件 板 、 计 算 超 节点 和 计算 机 仓 等 模式 进行 
HERAN, 
3 片上 计算 


组 成 ， 通 过 计算 机 措 
系统 扩展 ， 构 成 高 速 计 

SW26010 XJ 
的 异 构 众 核 体系 结构 ， 
个 运算 核心 ， 每 个 核 组 包含 1 个 运算 控 
运算 核心 阵列 ， 如 攻 


阵列 集群 和 分 布 式 


体系 结构 ， 


Ed (SW26010) 


CRAB EA 
单 处 理 器 芯片 集成 4 个 运算 核 组 共 260 
所 核心 〈 主 核 ) 和 1 个 
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图 1 SW26010 异 构 众 核 处 理 器 架构 


Fig.l Architecture of SW26010 heterogeneous many-core processor 


图 2 


Fig.2 Hybrid parallel architecture of island-enhanced master/slave 
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基于 申 威 众 核 处 理 


强 ” 混 合式 


分 岛 一 主 从 增强 ”混合 式 并 行 架构 


器 的 架构 ， 本 文 设计 了 “分 岛 一 主 从 增 


行 NSGA-I 算法 ， 如 图 2 月 


p3. p4 分 表 代 表 四 个 子 种 群 ， 每 个 子 种 和 


行进 化 ， 并 每 隔 一 定 代数 进 


代表 一 个 岛 。 各 岛 
行 迁移 。 每 一 子 种 群 又 按照 分 配 的 


其 中 pl. p2. 


从 核 数量 进行 分 组 ,组 内 的 个 体 按 主 从 式 模型 并 行进 化 。 同 时 ， 


在 从 核 计 算 时 ， 各 从 核 间 按 照 一 定 规 贝 


进行 


数据 通信 来 保证 计 


算 过 程 的 完整 性 , 因此 是 一 种 增强 式 的 主 从 并 行 模式 ,各 岛 内 ， 


初始 化 、 选 择 、 


=Œ g 4 


交叉 以 及 变异 操作 在 主 核 中 执行 ， 从 核 除 了 负 


责 目 标 函 数 计算 ， 还 负责 非 支配 排序 和 拥挤 度 计 算 ， 这 样 可 以 
充分 利用 从 核 的 超 高 计算 能 力 。 由 此 实现 了 NSGA-I 的 二 级 混 


[ 示 。 采 用 寄存 器 级 数据 通信 、 多 模式 


异步 数据 流传 输 和 运算 阵列 快速 同步 等 技术 提高 运算 核心 协同 
器 配置 32 GB 内 存 ， 每 核 组 本 地 内 存 


执行 效率 。 每 个 众 核 处 理 
为 8GB; 运算 核心 可 直 
式 批量 访问 主 存 ， 运 算 核心 阵 允 


楼 离散 访问 了 


5 可 以 通过 DMA 7j 


合式 并 行 。 


22 单 核 组 并 行 


单个 核 组 


对 应 于 一 个 岛 ， 核 组 内 的 


TRA 


E 存 ， 


存 器 通信 方式 进 
大 小 为 64 KB， 指 令 存 储 空间 为 16 KB. 


行 通信 ; 每 个 


2  NSGAI 的 并 行 和 优化 


2.1 并 行 架构 
NSGA-II 是 
目标 遗传 算法 的 主要 
的 支配 关系 进行 了 分 层 
挤 度 计算 。NSGA-II 的 选择 算 子 、 交 叉 算 子 和 变异 算 子 与 传统 
单 目标 遗传 算法 基本 相同 。 


运算 核心 的 局 


TER 


FE 序 的 多 目标 遗传 算法 ， 


行 模式 。 因 


为 目标 函数 计算 的 并 行 性 能 依赖 了 


上 中 同行 与 同 列 的 核 间 可 采用 寄 


部 数据 存储 LDM) 


与 传统 单 


并 根据 层次 关系 对 每 


是 在 选择 算 子 执行 之 前 根据 个 体 之 间 


个 个 体 进行 拥 


日 “ 主 从 增强 ” 
F 解决 问题 的 计 


算 量 和 数据 量 ， 在 计算 量 和 数据 量 较 小 的 轻 载 情况 下 往往 加 速 
比较 低 ， 因 此 ， 本 文 对 NSGA-II f 
了 目标 函数 计算 之 儿 


的 更 多 操作 模块 实现 并 行 。 除 
， 非 支配 排序 和 拥挤 度 计算 的 过 程 占 算法 


总 体 开销 的 比重 较 大 ， 因 此 设计 将 这 两 部 分 实现 
据 SW26010 单 核 组 〈 主 核 + 从 核 阵 列 ) 的 异 构 体 系 结构 ， 将 


行 加 速 。 根 


NSGA-I 算法 的 主体 计算 代码 进行 单 核 组 并 行 化 ， 流 程 如 图 3 


所 示 。 


加 速 线程 


计 的 程序 加 速 


HE CAthread E) 外 是 针对 主 从 加 速 编程 模型 所 设 
库 ， 其 目的 是 使 用 户 能 更 方便 、 快 捷 地 对 和 核 组 


内 的 线程 进行 控制 和 调度 ， 从 而 更 好 地 发 挥 核 组 内 多 计算 核 的 


计算 性 能 。 
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录用 定稿 X] £*, €: 基于 申 威 众 核 处 理 器 的 NSGA-I 并 行 和 优化 方法 37%% TA 
开始 需要 发 送 与 接收 一 一 对 应 、 配 合 有 序 ， 大 量 通 信 时 需要 具有 完 
| | 善 的 调度 机 制 ，d) 从 核 寄存 器 通信 虽 快 ， 但 每 次 仅 支持 1 个 
er mE | | 256 位 长 度 的 向 量 ， 过 量 通 信 依 然 会 导致 通信 开销 占 比 增 大 ， 
ELI T HE | | 从 而 影响 并 行 效果 。 针 对 并 行 中 的 这 些 问 题 ， 本 文 主要 从 寄存 
Wk 器 通信 、 双 缓冲 、 向 量化 以 及 存储 优化 四 个 方面 进行 并 行 优化 。 

对 种 群 p 进 行 遗传 | | : | . HIN 

" 操作 ， 获 得 种 群 Q j | | 2.3.1 寄存 器 通信 
eer | 如 图 4 所 示 , SW26010 从 核 阵列 支持 同行 和 同 列 的 寄存 器 
| | 通信 ， 但 从 核 通信 需 遵守 一 定 的 规则 : a) 寄存 器 间 通 信 时 ， 从 
合并 p 和 Q 作 为 R FH | d^ E Mas E 
| 核 接收 信息 次 数 与 其 他 从 核 向 其 发 送信 息 的 次 数 应 该 相等 ， 若 


接收 次 数 大 于 发 送 次 数 , 则 从 核 会 停滞 ,直到 接收 到 新 的 信息 ， 
若 一 直 未 收 到 信息 ， 则 该 从 核 将 一 直 等 待 ， 造 成 整个 程序 无 
进行 ; b) 从 核 间 的 发 送 通信 在 一 定数 据 量 内 是 非 阻 塞 的 ， 当 
一 从 核对 另 一 从 核发 送信 息 时 ， 先 将 信息 放 入 从 核 所 对 应 的 


d Y 
| | 对 R 进 行 非 支配 排序 


Y 
拥挤 度 计算 


i 
ý 
F 
Emo ub (X o x 


"Ic E 理 缓冲 区 ， 使 通信 能 够 非 阻塞 进行 ， 不 用 等 待 ， 但 若 通信 量 
| E | 大 而 未 及 时 接收 ， 物 理 缓冲 区 被 占 满 时 ， 从 核 将 无 法 再 发 送 
| | 息 ， 进 入 停滞 状态 cO 当 两 个 从 核 同时 向 对 方 发 送信 息 ， 两 
"ME CREME ME NENNEN | 从 核 均 处 于 信息 发 送 状态 而 没有 接收 信息 ， 这 会 产生 死 锁 ， 
图 3 并 行 NSGA-II 流程 程序 无 法 进行 。 根 据 以 上 寄存 器 通信 规则 ， 本 文 对 非 支 配 排序 
Fig3 Flow chart of parallel NSGA-II 和 拥挤 度 计 算 进 行 并 行 优化 。 
在 目标 函数 计算 进行 并 行 化 时 ， 由 于 每 个 个 体 的 目标 函数 正常 状态 SRCCPE DEST CPE 
计算 无 相互 关联 ， 可 将 种 群 中 的 个 体 直接 分 成 若干 等 份 分 别 交 me cem Ed T 
给 不 同 的 从 核 进行 计算 。 首 先 初始 线程 和 创建 线程 组 ， 启 动 核 EX mmtm [segs 
组 中 的 64 个 从 核资 源 , 然后 将 种 群 内 个 体 信息 通过 DMA 方式 piae BE Bitter "m 
加 载 到 对 应 的 从 核 上 。 从 核对 各 个 个 体 进行 众 核 加 速 计算 的 同 四 —Àp[— 
时 主 核 处 于 等 待 的 状态 ， 计 算 完成 后 继续 通过 DMA 方式 将 从 r I 
REG PUT() REG GET() 
核 所 得 的 目标 函数 值 写 回 主 核 。 ~ | DD UUI i 
Buffer Buffer REG GETO 
在 非 支配 排序 的 过 程 中 ， 每 个 个 体 必须 与 当前 未 被 分 层 的 E 
所 有 个 体 进行 比较 ， 分 层 过 程 需要 所 有 个 体 信息 。 由 于 从 核 只 a L—um 
有 64KB 局 存 ， 单 个 从 核 往往 无 法 完整 加 载 所 有 个 体 数据 。 如 -— UR g 
| PUTO x 不 REG_GET() 
果 从 核 同时 进行 不 同 个 体 的 非 支 配 排序 ， 则 从 核 需要 以 直接 访 | T 
y REG. PUTO Buffer(full) Buffer(full) 
问 主 存 的 形式 读 取 种 群 中 所 有 个 体 信息 。 这 种 方式 在 主 从 核 间 EU 
的 通信 开销 很 大 , 并 行 效 果 不 佳 ,因此 需要 进一步 的 并 行 优化 。 © 两 个 从 核 同时 向 对 方 发 送 数据 
拥挤 度 计算 以 非 支 配 排序 的 分 层 结果 为 基础 。 在 计算 前 ， — pen EE —RH 
首先 在 主 核 上 对 每 一 层 的 个 体 的 目标 函数 值 进行 排序 ， 然 后 将 ne rs 
排序 好 的 目标 函数 值 交 给 对 应 从 核 ， 计 算 个 体 间 目标 函数 的 距 Block Buffer Buffer "e 
离 。 计 算 完毕 后 ， 将 个 体 所 得 各 目标 函数 距离 值 传 回 主 核 作 归 图 4 ”寄存 器 通信 规则 
一 化 和 累加 操作 。 这 种 方式 的 并 行 化 程度 很 低 ， 仍 然 有 大 部 分 Fig.4 Register communication rules 
运算 在 主 核 部 分 进行 ， 也 需要 进一步 的 并 行 优化 。 1) 非 支 配 排序 的 优化 
23 并行 优 化 在 非 支 配 排序 过 程 中 频繁 访问 主 核 主 存 使 通信 开销 急剧 增 
在 NSGA-II 并 行 化 过 程 中 遇 到 以 下 挑战 : a) 目标 函数 并 ”加 ， 而 每 个 从 核 64 KB 的 局 存 又 无 法 完整 存储 所 有 个 体 的 目标 


行 时 ,在 函数 时 间 复 杂 度 固定 的 情况 下 要 尽 可 能 减 小 通信 开销 ; 函数 值 ， 因 此 需要 将 所 有 个 体 数据 划分 成 64 等 份 , 分 散在 储 在 
b) 非 支配 排序 和 拥挤 度 计算 是 个 体 间 关 联 度 较 大 的 操作 , 其 计 ”每 个 从 核 局 存 中 ; 另 一 方面 , 非 支 配 排序 需要 所 有 个 体 的 信息 ， 
算 在 每 个 从 核实 现 并 行 化 时 ， 从 核 需要 获取 全 部 个 体 信 息 ， 而 “从 核 间 需 要 频繁 进行 数据 通信 ， 并 且 保 证 分 层 过 程 中 的 信息 完 
申 威 处 理 器 的 主 核 内 主 存 速 度 慢 ， 从 核 内 局 存 容量 又 过 小 ; c) WE. 


若 考 虑 将 数据 分 散 储存 在 各 个 从 核 的 局 存 中 ， 数 据 的 共享 需 依 本 文 设计 了 一 条 哈密 顿 回路 ， 如 图 5 所 示 。 每 个 个 体 在 每 
赖 于 各 从 核 间 的 大 量 寄存 器 通信 , 而 寄存 器 通信 机 制 较为 严格 ， 层 分 层 过 程 中 经 过 其 余 所 有 从 核 的 次 数 有 且 仅 有 一 次 ， 相 邻 
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的 两 个 从 核 可 以 沿 固定 方向 通信 ， 并 且 首 尾 相连 形成 环 路 。 这 
种 设计 使 每 一 个 从 核 只 向 特定 的 从 核发 送 数据 ， 也 只 接收 特定 
从 核发 来 的 数据 ， 发 送 和 接收 的 次 数 依照 从 核 内 处 理 的 个 体 数 
而 定 ， 从 而 可 以 避免 不 确定 的 通信 方向 和 通信 次 数 导致 的 不 必 


要 的 开销 和 寄存 器 通信 异常 。 
从 核 进行 支配 关系 的 比较 时 ， 当 前 个 体 与 本 从 核 内 其 余 个 


体 比较 后 ， 传 递 到 下 一 个 从 核 ， 与 下 一 个 从 核 内 各 个 体 进 行 比 
较 ， 直 到 同 所 有 的 从 核 内 的 所 有 个 体 完成 比较 。 为 了 判断 一 次 
循环 后 所 有 个 体 是 否 被 完全 分 层 ， 需 要 统计 每 一 个 从 核 内 未 被 
分 层 的 个 体 数量 。 从 第 一 个 从 核 开 始 ， 未 分 层 个 体 数 量 依次 向 


后 发 送 并 进行 累加 ， 直 到 第 一 个 从 核 收 到 最 后 一 个 从 核 统计 的 


个 数 。 若 已 完全 分 层 ， 则 向 所 有 从 核 广播 停止 指令 ， 若 未 分 层 


完毕 ， 则 继续 下 一 次 非 支 配 排序 。 


F 
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图 5 ”从 核 间 通信 的 哈密 顿 回路 


ig.5 Hamiltonian loop of communication among CPEs 


2) 拥挤 度 计 算 的 优化 
拥挤 度 计算 以 非 支配 排序 的 分 层 结果 为 基础 。 分 层 结束 后 ， 
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对 方 缓冲 的 数据 。 通 过 编程 来 控制 和 实现 。 有 具体 过 程 如 下 : 除 
了 处 理 第 一 轮 次 以 及 最 后 一 轮 次 读 入 《〈 写 回 ) 数据 的 通信 过 程 
之 外 ， 当 计算 核心 进行 本 轮 次 数据 计算 的 同时 ， 进 行 下 一 轮 次 


一 


上 一 轮 次 ) ZA GSE 


) 数据 的 通信 。 


EH 


次 调 


S 


为 为 双 缓 冲 机 制 的 效果 受 通信 和 计算 开销 比例 的 影响 ， 多 
J] DMA 传输 需要 额外 的 开销 ， 并 且 所 传输 的 数据 必须 是 


32 KB 对 齐 且 为 连续 内 存 块 ， 所 以 一 次 传输 的 数据 应 该 尽 可 能 
£ H. 32 KB 对 齐 。 针 对 不 同 的 计算 任务 需 通过 测试 找到 最 优 的 


每 次 通信 的 数据 量 。 
2.3.3 向 量化 


SW26010 的 主 从 核 核心 都 支持 256 位 宽 的 向 量化 操作 。 例 


如 ,一 次 可 以 操作 处 理 四 


个 double 类 型 。 在 非 支配 排序 过 程 中 


涉及 到 大 量 的 适应 度 值 大 小 比较 , 若 将 四 个 double 型 的 目标 函 


数值 载 入 256 位 向 量 同时 进行 比较 ， 则 将 在 理论 上 提高 四 倍 的 


处 理 速度 。 在 目标 函数 计算 时 涉及 到 大 量 数据 的 累加 ， 采 用 向 


量 加 操作 可 大 幅 提升 效率 。 


向 量化 操作 时 要 注意 对 界 问题 。 因 为 不 对 界 的 Load/Store 


会 引发 异常 ， 操 作 系 统 收 到 异常 信号 后 会 将 这 些 Load/Store 拆 
分 成 标准 类 型 ， 会 大 幅 降 低 性 能 。 因 此 在 利用 向 量化 操作 时 ， 


对 于 不 对 界 的 一 组 目标 函数 值 最 好 进行 补 全 填充 或 合理 分 割 。 


2.3.4 存储 优化 


为 了 方便 和 直观 地 进行 信息 的 存储 ， 种 群 中 每 个 个 体 一 般 


以 结构 体 的 形式 存储 。 若 在 主 从 核 间 直接 以 结构 体形 式 传输 ， 


则 可 能 附带 传输 与 本 次 计算 无 关 的 数据 ， 不 仅 浪费 从 核 局 存 且 


增 大 了 通信 开销 。 若 只 取 所 需要 的 部 分 数据 ， 则 会 导致 所 取 数 


据 的 存储 方式 是 离散 的 ， 


不 仅 导 致 cache 命中 率 降 低 、 计 算 开 


销 急 剧 增加 ， 且 影响 DMA 传输 速度 。 因 此 ， 考 虑 在 目标 函数 


计算 前 , 先 将 个 体 中 相关 


每 个 从 核 只 保存 部 分 个 体 。 拥 挤 度 计算 前 要 将 每 一 层 个 体 的 每 


一 个 适应 度 值 进行 从 大 到 小 的 排序 ， 若 将 数据 传 回 主 核 进行 排 


序 ， 之 后 再 由 从 核 进行 距离 计算 ， 会 影响 并 行 效率 。 因 此 ， 本 
A 


文 使 用 从 核 通信 哈密 顿 回路 ， 在 从 核 内 直接 进行 目标 函数 值 的 


n 


排序 。 每 个 个 体 在 各 从 核 间 第 一 轮 传递 时 ， 分 别 与 每 个 从 核 的 
所 有 个 体 比较 ， 记 录 个 体 所 在 层 中 比 该 个 体 大 的 数量 ， 当 个 体 
到 原 从 核 ， 即 可 得 到 该 个 体 在 每 一 层 中 所 排 的 序号 。 在 第 二 


轮 传递 时 ， 计 算 每 个 个 体 与 其 序号 相 邻 的 两 个 个 体 的 目标 函数 


差 值 ( 除 最 大 和 最 小 的 个 体外 )。 最 后 所 有 个 体 回 到 原 从 核 , 对 


个 体 的 每 一 个 目标 函数 的 差 值 进行 累加 计算 出 拥挤 度 距离 。 
以 上 优化 中 ， 利 用 从 核 间 寄存 器 通信 技术 ， 设 计 严 格 的 通 


信和 规则 ， 


实现 了 核 组 内 从 核 局 存 的 共享 ， 解 决 了 单个 从 核 局 存 


空间 过 小 而 无 法 存储 全 部 所 需 数据 的 问题 ， 提 高 了 并 行 效率 。 
2.3.2 双 缓 冲 
对 于 目标 函数 计算 ， 在 DMA 传输 的 基础 上 加 入 双 缓冲 机 


速效 果 。 


制 ， 可 以 实现 计算 和 通信 最 大 限度 的 互相 隐藏 ， 取 得 良好 的 加 


双 缓冲 机 制 就 是 在 从 核 的 局 部 数据 存储 上 申请 两 倍 于 


次 处 到 


所 需 数据 大 小 的 空间 ， 以 便 存放 两 份 同样 大 小 且 互 为 


的 解码 后 的 信息 连续 存储 , 减 小 DMA 


通信 的 开销 和 从 核 内 读 取 的 开销 。 从 核 内 计算 完毕 后 ， 将 适应 


度 值 依然 存储 在 连续 空间 内 传 回 主 核 ， 再 进行 分 别 赋值 。 


2.4 多 核 组 并 行 
随 着 问题 规模 扩大 ， 
的 种 群 规模 数 有 限 , 所 以 


种 群 个 体 数 增加 。 由 于 单 核 组 能 处 理 
本 文 使 用 MPI 编程 模型 将 单 核 组 的 


fT NSGA-II 扩展 到 大 规模 集群 上 , 有 利于 NSGA-II 在 大 规模 问 


题 上 表现 出 较 好 的 适用 性 。 


2.4.1 分 岛 模 型 


鉴于 SW26010 的 架构 特点 ， 多 核 组 的 并 行 采 用 分 岛 模 型 。 


分 岛 模型 将 初始 种 群 按照 核 组 (1 个 主 核 +64 个 从 核 ) 数量 分 成 
若干 个 子 种 群 ， 各 子 种 群 独立 地 在 每 个 岛 上 执行 遗传 操作 (一 


个 岛 对 应 一 个 核 组 )， 如 图 6 所 示 。 每 隔 一 定 代数 ， 各 子 种 群 间 


进行 数据 迁移 ， 增 加 子 种 群 的 多 样 性 ， 防 止 过 早 收 敛 。 分 岛 模 


2.4.2 迁移 策略 


型 通信 开销 较 小 ， 理 论 上 可 以 获得 接近 线性 的 加 速 比 。 


为 了 防止 产生 局 部 最 优 解 ， 每 个 孤岛 每 隔 一 定 代数 需要 进 
行 个 体 迁 移 。 有 具体 策略 为 : 每 个 进程 均 向 其 他 n-1 个 进程 发 送 


个 体 ， 进 程 m 根据 进程 


id 和 当前 进化 代数 确定 接收 个 体 ; XE 
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移 时 ， 按 照 分 层 序号 进行 迁移 ， 迁 移 的 个 体 为 非 支 配 排序 的 最 。 3.1 解 的 正确 性 


外 层 个 体 ， 确 保 迁 出 的 都 是 岛 内 优良 的 个 体 ， 接 收 时 ， 将 接收 图 7 和 8 分 别 为 ZDT1 和 BinhKorn 采用 串 行 NSGA-I 和 
到 的 优良 个 体 跟 本 岛 内 的 层级 靠 后 的 个 体 进行 蔡 换 。 单 核 组 并 行 NSGA-II 所 得 Pareto 解 集 。 由 图 可 得 ， 两 种 方法 所 


ec» 得 的 解 集 基 本 重合 ,保证 了 单 核 组 并 行 NSGA-II 的 正确 性 ， 且 


fT NSGA-II 的 解 集 分 布 更 均匀 。 
初始 化 种 群 1 | ee 初始 化 种 群 n 


0 0.2 0.4 0.6 0.8 1 12 


f) 


个 体 迁移 个 体 迁移 图 7 $47 NSGA-NI 与 并 行 NSGA-II 所 求 ZDTI 解 集 


Fig.7 Solutions of ZDTI by serial NSGA-II and parallel NSGA-II 


结束 


图 6 分 岛 模型 流程 
Fig.6 Flow chart of island model 
3 ”实验 结果 与 分 析 


本 实验 基于 SW26010 众 核 处 理 器 ， 测 试 函 数 为 ZDT1 及 
BinhKorm 5l, 种群 大 小 为 64 000， 进 化 代数 为 10, 交叉 概率 为 


， 变 异 概率 为 0.1， 从 核 数 默认 为 64。 $e to 
ZDTI 函数 : 8 串 行 NSGA-I 与 并 行 NSGA-I 所 求 BinhKorn 解 集 
Fig.8 Solutions of BinhKorn by serial NSGA-II and parallel NSGA-II 
COLE. 0) , 
3.2 加速 比 与 扩展 性 
在 保持 种 群 总 个 体 数 不 变 的 情况 下 增加 核 组 数 ， 所 得 的 从 
h=- | ] Q) ” 核 加 速 比 曲线 如 图 9 所 示 。 两 种 测试 函数 的 从 核 加 速 比 呈 相同 
8G) 的 趋势 ， 均 先 增加 后 减 小 ， 峰 值 出 现在 核 组 数 为 2 时 ， 从 核 加 
9 u 速 比 可 分 别 达到 13.95 和 16.28。 为 了 分 析 目 标 函 数 计算 、 非 支 
poeb T X; " 配 排序 以 及 拥挤 度 计算 三 个 模块 的 并 行 效果 对 算法 整体 从 核 加 
moe 速 比 的 影响 ， 表 1 和 2 分 别 列 出 了 采用 ZDT1 和 BinhKorn 两 
pu T DO EUM 种 测试 函数 的 并 行 NSGA-II 的 三 个 模块 的 运行 时 间 和 从 核 加 速 
BinhKorn 函数 ; 比 ， 以 及 算法 整体 的 从 核 加 速 比 。 其 中 ， 非 支配 排序 的 从 核 加 


速 比 最 高 ， 而 目标 函数 计算 的 从 核 加 速 比 最 低 。 由 于 非 支 配 排 
序 占 总 运行 时 间 比 重 最 多 ， 所 以 算法 整体 的 从 核 加 速 比 的 走 志 


基本 与 非 支 配 排序 的 从 核 加 速 比 一 致 。 与 ZDT1 相 比 ， 由 于 
hG.)-G-5y-«(y-550sys3à (5 o i 


fi y) 2 Ax! +4y 50€ x «5; (4) 


BinhKorn 函数 加 入 了 约束 条 件 的 限制 , 非 支 配 排序 运行 时 间 占 
约束 条 件 : 比 更 大 ， 所 以 其 算法 整体 的 从 核 加 速 比 更 高 且 更 贴近 非 支 配 排 


序 的 从 核 加 速 比 。 
在 实验 中 ,由 于 从 核 局 存 较 小 , 从 核 处 理 个 体 的 数量 有 限 ， 
且 测 试 函 数 的 计算 量 过 小 而 相对 通信 开销 较 大 ， 导 致 了 目标 函 
数 计算 的 从 核 加 速 比 小 于 1。 这 也 体现 了 轻 载 时 对 非 支 配 排 序 
为 了 衡量 程序 的 并 行 化 效果 和 从 核 利 用 率 ， 本 文 引 入 了 性 ”和 拥挤 度 计算 进行 并 行 化 的 必要 性 和 重要 性 。 但 如 果 不 对 目标 
能 评价 指标 一 一 从 核 加 速 比 ， 其 定义 为 同等 条 件 下 只 使 用 主 核 ”函数 计算 进行 并 行 ， 则 会 显著 增加 非 支配 排序 的 通信 开销 ， 权 
的 运行 时 间 除 以 主 核 和 从 核 协同 工作 的 运行 时 间 。 衡 两 部 分 的 加 速效 果 ， 有 必要 对 目标 函数 进行 并 行 化 。 


g(x, y) 2 -5y +y <25; (6) 


g(x, y) 2 (x -8) +(y+3) 27.7; 0) 
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录用 定稿 刘 È, F: 基于 申 威 众 核 处 理 器 的 NSGALII 并 行 和 优化 方法 CE AR LR 
表 1 XH ZDTI 的 并 行 NSGA-I 运行 时 间 和 加 速 比 
Table 1 Run time and speedups of parallel NSGA-II with ZDTI 
"— 目标 函数 计算 非 支 配 排 序 拥挤 度 计算 从 核 
主 核 串 行 时 间 ”从 核 并 行 时 间 ”从 核 加 速 比 ” 主 核 串 行 时 间 ”从 核 并 行 时 间 ”从 核 加 速 比 ” 主 核 串 行 时 间 从 核 并 行 时 间 ”从 核 加 速 比 ”加 速 比 
1 6.10E+06 7.32E+06 0.83 3.61E+11 1.66E+10 21.78 3.93E+10 6.26E+09 6.28 12.10 
2 3.02E+06 3.72E+06 0.82 8.83E+10 3.42E+09 25.84 1.04E+10 1.58E+09 6.55 13.95 
4 1.33E+06 1.84E+06 0.75 1.92E+10 7.48E+08 25.72 2.69E+09 3.99E+08 6.75 13.76 
8 6.49E+05 1.15E+06 0.60 3.97E+09 1.55E+08 25.67 7.31E+08 1.03E+08 7.06 13.30 
16 3.19E+05 5.67E+05 0.56 9.13E+08 3.84E+07 23.75 2.05E+08 2.73E+07 7.50 12.28 
32 1.53E+05 2.91E405 0.49 1.87E+08 9.15E+06 20.44 5.65E+07 7.13E+06 7.93 11.08 
64 6.59E+04 1.50E+04 0.44 4.28E+07 2.32E+06 18.42 1.59E+07 1.88E+06 8.49 9.14 
表 2 采用 BinhKorn 的 并 行 NSGA-I 运行 时 间 和 加 速 比 
Table2 Run time and speedups of parallel NSGA-II with BinhKorn 
"— 标 函 数 计算 非 支 配 排序 拥挤 度 计 算 从 核 
主 核 串 行 时 间 “从 核 并 行 时 间 从 核 加 速 比 主 核 串 行 时 间 从 核 并 行 时 间 从 核 加 速 比 ” 主 核 串 行 时 间 “从 核 并 行 时 间 从 核 加 速 比 “加速 比 
1 6.11E+06 7.33E+06 0.83 5.05E+11 2.32E+10 21.77 3.93E+10 6.25E+09 6.30 4.69 
paai 2 3.02E+06 3.72E+06 0.81 1.24E+11 4.78E+09 25.83 1.04E+10 1.55E+09 6.68 16.28 
N : 4 1.33E406 1.85E+06 0.72 2.69E+10 1.07E+09 25.13 2.68E+09 3.52E+08 7.62 6.06 
8 6.49E+05 1.07E+06 0.61 5.47E+09 2.24E+08 24.41 7.25E+08 9.25E+07 7.84 5.67 
16 3.19E+05 5.64B+05 0.57 1.22E+09 5.13E+07 23.75 2.03E+08 2.54E+07 7.98 4.39 
32 1.53E+05 2.93E+05 0.52 2.61E408 1.27E+07 20.52 5.86E+07 7.19E+06 8.15 2.01 
64 7.40E+04 1.61E+05 0.46 6.37E+07 3.62E+06 17.59 .65E+07 1.93E+06 8.56 9.48 
非 支 配 排序 与 其 他 两 个 模块 相 比 加 速效 果 较 好 ， 从 核 加 速 
比 最 高 可 超过 25。 随 着 核 组 数量 的 增加 ， 每 个 从 核 所 分 配 到 的 
需要 处 理 的 个 体 数 减少 ， 从 核 计 算 量 也 随 之 减少 ， 从 而 导致 加 
速效 果 下 降 。 但 从 核 处 理 个 体 数 过 多 时 ， 也 会 导致 在 分 层 过 程 
中 各 从 核 间 由 于 随机 性 带 来 的 计算 量 差异 增 大 ， 从 而 使 寄存 器 
nan 通信 过 程 中 等 待 的 时 间 增加 ， 影 响 从 核 加 速 比 。 所 以 当 核 组 数 
—— on 较 少 时 ， 从 核 加 速 比 反而 会 下 降 。 
对 于 拥挤 度 计 算 ， 在 串 行 程序 中 ， 个 体 先 要 与 其 所 在 的 非 
支配 层 内 其 他 个 体 进行 排序 。 而 在 并 行程 序 中 ， 由 于 同一 非 支 
图 9 两 种 测试 函数 的 从 核 加 速 比 配 层 的 个 体 可 能 分 布 在 不 同 的 从 核 内 ， 所 以 个 体 需 要 与 种 群 内 
Fig.9 Slave-core speedups with two test functions 每 一 个 个 体 进行 所 属 层级 的 确认 , 再 对 同 层 内 的 个 体 进行 排序 。 
当 核 组 数 越 多 ， 孤 岛 内 子 种 群 个 体 数 越 少 ， 虽 然 从 核 的 计算 量 
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Fig.10 Speedups with two test functions 
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所 示 。 图 中 可 看 出 ， 随 着 核 
行 效率 远 远 超过 了 1， 最 


法 中 非 支配 排序 所 占 的 开销 最 大 ， 相 比 于 其 余部 分 的 开销 多 出 
2-3 个 数量 级 ， 而 非 支 配 排序 的 时 间 复 杂 度 为 O(N”)， NN 为 每 个 
孤岛 的 个 体 数量 。 在 种 群 个 体 总 数 保持 不 变 的 情况 下 ， 孤 岛 数 
量 越 多 ， 每 个 孤岛 所 分 到 的 个 体 数 量 越 少 ， 时 间 开 销 则 旦 个 体 
数量 减 小 的 次 方 级 减 小 。 由 此 可 得 ， 申 威 众 核 处 理 器 在 利用 
NSGA-II 解决 大 规模 问题 上 有 较 好 的 扩展 性 。 
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向 量化 + 存储 优化 )。 


本 文 基于 申 威 众 核 处 理 器 的 体系 架构 特点 , 设计 和 实现 了 
混合 式 并 行 NSGA-II 算法 ， 并 综合 运用 了 
思路 和 优化 方法 可 为 其 他 算法 在 


本 文 主要 贡献 如 下 : 


上 ， 利 用 从 核 间 寄 存 器 


通信 ， 实 现 核 


昌 存 储 的 共享 ， 提 出 了 “ 主 从 增强 ”模式 的 


优化 算法 流程 ， 


实现 更 多 算法 模块 在 从 核 上 的 并 行 ， 


提 


高 了 算法 的 并 行 化 程度 。 
c) 综合 运用 DMA 传输 、 向 量化 、 双 组 六 


化 方法 显著 提高 力 


E, (Ru 


实验 i 


展 到 64 


[38 E ET 433 


E 确 性 。 在 对 ZDTI 和 BinhKorn 两 个 测 


| 达到 13.95 f 
40 000. 


然而 受 限 的 从 核 局 存 容 量 为 算法 设计 带 来 了 


一 步 优 化 访 存 ， 提 高 访 存 效率 和 Cache fr Y 


占 


人 Wo 


参考 文献 : 


[1] 杨 广 文 ， 赵 文 来 ， 丁 楠 ， 等 . 


P 率 是 未 来 工作 的 如 


Ph、 存 储 优化 等 优 
[ 速 比 ， 解 决 了 轻 载 情况 下 加 速效 果 较 差 的 问 
E 了 算法 在 多 种 负载 情况 下 并 行 效率 。 

dD 利用 分 岛 模型 和 迁移 策略 , 将 算法 扩展 到 申 威 大 规模 身 
群 上 ， 证 明了 其 良好 的 扩展 性 。 
E 明 了 算法 的 1 
试 函 数 的 实验 中 ， 从 核 力 
个 核 组 时 ， 总 加 速 比 可 超过 


YT 


0 16.28。 当 扩 


巨大 挑战 ， 进 


T 


“和 神威 。 太 湖 之 光 ” 及 其 应 用 系统 [I]. f 


学 , 2017 (3): 12-16. (Yang Guangwen, Zhao Wenlai, Ding Nan, et al. ” 


Sunway TaihuLight" and its application system [J]. Science, 2017 (3): 12- 
16.) 

AH, RE, RAE, F. “和 神威。 太湖 之 光 ” 计 算 机 系统 大 规模 应 用 特 
征 分 析 与 E 级 可 扩展 性 研究 [OL]. 计算 机 学 报 , 2018, 41 (24): 1-10. 
http://kns. cnki. net/kcms/detail/11. 1826. TP. 20180303. 1356. 012. html. 
(Liu Xin, Guo Heng, Sun RuJun, et al. The characteristic analysis and 
exascale scalability research of large scale parallel applications on sunway 
taihuLight supercomputer [J/OL]. Chinese Journal of Computers, 2018, (41) 
(24): 1-10. ) 

ALA, 李 肯 立 ， 全 哲 ， 等 , 面向 神威 。 太 湖 之 光 的 PETSc 可 扩展 异 构 
并 行 算法 及 其 性 能 优化 [T]. 计算 机 学 报 , 2017 (9): 2057-2069. (Hong 
Wenjie, Li Kenli, Quan Zhe, et al. PETSc's heterogeneous parallel algorithm 
design and performance optimization on the sunway TaihuLight system [J]. 
Chinese Journal of Computers, 2017 (9): 2057-2069. ) 

Ziek, 文敏 华 ， 韦 建文 ， 等 . 神威 太湖 之 光 上 OpenFOAM 的 移植 与 优 
化 [J]. 计算 机 科学 , 2017 (10): 64-70. (Meng Delong, Wen Minhua, Wei 
Jianwen, et al. Porting and optimizing OpenFOAM on sunway TaihuLight 
system [J]. Computer Science, 2017 (10): 64-70. ) 

赵 美 婷 ， 刘 轶 ， 刘 锐 ,， 等 . 基于 申 威 众 核 处 理 器 的 HOG 特征 提取 算法 
并 行 加 速 [J]. 计算 机 工程 与 科学 ,2017 (4): 611-618. (Zhao Meiting, Liu 
Yi, Liu Rui, ef al. Acceleration of histogram of oriented gradient (HOG) 
based on sunway many-core processor [J]. Computer Engineering and 
Science, 2017 (4): 611-618. ) 

姚 文 军 ， 陈 俊 仕 ， 苏 志 超 ， 等 . 基于 神威 太湖 之 光 的 NAMD 软件 的 移 
植 与 优化 [J] 计算 机 工程 与 科学 , 2017 (6): 1022-1030. (Yao Wenjun, 
Chen Junshi, Su Zhichao, et al. Porting and optimizing of NAMD on sunway 
TaihuLight system [J]. Computer Engineering and Science, 2017 (6): 1022- 
1030.) 

ŽE, AR, KE, 等 . 国产 众 核 处 理 器 百 万 核 时 域 有 限 差 分 并 行 
计算 OU] 西安 电子 科技 大 学 学 报 : 自然 科学 版 , 2017 (6): 65-69, 128. 
(Jiang Xuesong, Jiang Shugang, Zhang Yu, et al. Parallel FDTD 
computation of million cores with the domestically-made many-core 
supercomputer [J]. Journal of Xidian University: Natural Science, 2017 (6): 
65-69, 128.) 

何 王 全 ， 刘 勇 ， 方 燕 飞 ， 等 . 面向 国产 异 构 众 核 系统 的 Parallel C 语言 设 
计 与 实现 [J]. 软件 学 报 , 2017 (4): 764-785. (He Wangquan, Liu Yong, 
Fang Yanfei, et al. Design and implementation of parallel C programming 
language for domestic heterogeneous many-core systems [J]. Journal of 
Software, 2017 (4): 764-785. ) 

教 玉龙 . BAKARA RE A LHE Efe. Stencil 运算 的 性 能 优化 关键 
技术 研究 [D]. 北京 : 中 国 科学 院 大 学 , 2017. (Ao Yulong. Research on 
key optimizations of sparse matrix and stencil computation for the domestic 
large many-core system [D]. Beijing: University of Chinese Academy of 


Sciences, 2017. ) 


[10] Sara K, Mohammad T. An improved parallel genetic algorithm for optimal 


sensor placement of wireless sensor networks [C]/ Proc of ACM 


录用 定稿 刘 


Conference on Wireless Network Security. Switzerland: [s. n. ] , 2014: 261- 
268. 

[11] Sanhueza C, Jiménez F, Berretta R, et al. PasMoQAP: a parallel 
asynchronous memetic algorithm for solving the multi-objective quadratic 
assignment problem [C]// Proc of Evolutionary Computation. Spain: IEEE 
Press, 2017: 1103-1110. 

[12] Potuzak T. Distributed//parallel genetic algorithm for road traffic network 
division using a hybrid island model//step parallelization approach [C]// 
Proc of IEEE//ACM International Symposium on Distributed Simulation 
and Real Time Applications. London: IEEE Press, 2016: 170-177. 

[13] Kseniya N, Alexey R. A parallel genetic algorithm approach for monitoring 
devices placement [C]/ Proc of International Multi-Conference on 
Engineering, Computer and Information Sciences. 2017: 186-189. 

[14] Ortega G, Filatovas E, Garzón E M, et al. Non-dominated sorting procedure 
for Pareto dominance ranking on multicore CPU and//or GPU [J]. Journal of 
Global Optimization, 2017, 69: 1-21. 

[15] žk k, KAZ, HER, F. 基于 非 支 配 排 序 差异 演化 的 应 急 资源 多 
目标 分 配 算法 [J]. 自动 化 学 报 , 2017 (2): 195-214. (Su Zhaopin, Zhang 
Guofu, Jiang Jianguo, et al. Multi-objective approach to emergency resource 
allocation using none-dominated sorting based differential evolution [J]. 
Acta Automatica Sinica, 2017 (2): 195-214. ) 

[16] ESIE, AAE, KEA, 等 . 区 间 多 目标 优化 非 支配 排序 云 模型 算法 
[J]. 计算 机 工程 与 应 用 , 2016, 53 (22): 143-149. (Chen Zhiwang, Huang 
Xingwang, Chen Zhixing, et al. Non-dominated sorting cloud model 
algorithm for inter-val multi-objective optimization [J]. Computer 
Engineering and Applications, 2016, 53 (22): 143-149. ) 

[17] RIX, 韩 肖 清 ， 梁 琛 . 精英 非 支配 排序 算法 与 改进 粒子 群 算法 相 结合 
的 储 能 优化 配置 [I]. 科学 技术 与 工程 , 2017 (20): 171-177. (Deng 
Kaiwen, Han Xiaoging, Liang Chen. Optimal configuration of energy 


storage based on elitist non-dominated sorting genetic algorithm II with 


dk, €i 基于 申 威 众 核 处 理 器 的 NSGA-I 并 行 和 优化 方法 


improved multi-objective particle swarm optimization [J]. Science 
Technology and Engineering, 2017 (20): 171-177. ) 

[18] 起 瑞祥 ， 郑 凯 , Xd, 等. 基于 申 威 众 核 处 理 器 的 混合 并 行 遗传 算法 
[J]. 计算 机 应 用 ,2017 (9): 2518-2523. (Zhao Ruixiang, Zheng Kai, Liu Yao, 
et al. Hybrid parallel genetic algorithm based on sunway many-core 
processors [J]. Journal of Computer Applications, 2017 (9): 2518-2523.) 

[19] Zhang Wenqiang, Fujimura Shigeru. Multiobjective process planning and 
scheduling using improved vector evaluated genetic algorithm with archive 
[J]. IEEJ Transactions on Electrical and Electronic Engineering, 2012 (3): 
258-267. 

[20] Zhang Rui, Chiong R. Solving the energy-efficient Job-Shop scheduling 
problem: a multi-objective genetic algorithm with enhanced local search for 
minimizing the total weighted tardiness and total energy consumption [J]. 
Journal of Cleaner Production, 2016, 112 (1): 3361-3375. 

[21] Mousa A A, Elattar E E. Best compromise alternative to EELD problem 
using hybrid multiobjective quantum genetic algorithm [J]. Applied 
Mathematics & Information Sciences, 2014, 8 (6): 2889-2902. 

[22] Deb K, Agrawal S, Pratap A, et al. A fast elitist non-dominated sorting 
genetic algorithm for multi-objective optimization: NSGA-II [C]// Proc of 
Parallel Problem Solving From Nature Vi Conference. Berlin: Springer, 
2000: 849-858. 

[23] Sheng Wanxing, Liu Keyan, Liu Yuan, et a/. Optimal placement and sizing 
of distributed generation via an improved nondominated sorting genetic 
algorithm II [J]. IEEE Trans on Power Delivery, 2015, 30 (2): 569-578. 


[24] 7,955. NSGA-II 并 行 化 研究 在 国产 众 核 上 的 实现 [D]. 上 海 : 华东 师 


范 大 学 , 2018. (Shen Huanxue. Parallel research of NSGA-II and implement 
on domestic many-core processor [D]. Shanghai: East China Normal 
University, 2018. ) 

[25] Deb K, Thiele L, Laumanns M, et al. Scalable test problems for evolutionary 


multiobjective optimization [M]. London: Springer, 2005: 105-145. 


